Interacciones entre características en crosscoders: pruebas compactas
Descubre cómo medir interacciones entre características de crosscoders mejora la reconstrucción, logra dispersión computacional y detecta agentes durmientes.
Descubre cómo medir interacciones entre características de crosscoders mejora la reconstrucción, logra dispersión computacional y detecta agentes durmientes.